大型文本对图像模型在AI的演变中取得了显着的飞跃,从而使图像从给定的文本提示中实现了高质量和多样化的图像合成。但是,这些模型缺乏在给定的参考集中模仿受试者的外观,并在不同情况下合成它们的新颖性。在这项工作中,我们提出了一种新的方法,用于“个性化”文本图像扩散模型(将它们专门针对用户的需求)。仅作为一个主题的几张图像给出,我们将验证的文本对图像模型(图像,尽管我们的方法不限于特定模型),以便它学会了将唯一标识符与该特定主题结合。一旦将受试者嵌入模型的输出域中,就可以使用唯一标识符来合成主题的完全新颖的光真逼真的图像在不同场景中的上下文化。通过利用具有新的自动构基特异性的先前保存损失的语义先验嵌入到模型中,我们的技术可以在参考图像中未出现的不同场景,姿势,视图和照明条件中合成主题。我们将技术应用于几个以前无用的任务,包括主题重新定义,文本指导的视图合成,外观修改和艺术渲染(所有这些都保留了主题的关键特征)。项目页面:https://dreambooth.github.io/
translated by 谷歌翻译
最近,大规模文本驱动的合成模型由于其出色的产生高度多样化的图像而引起了很多关注,这些图像遵循给定的文本提示。这种基于文本的综合方法特别有吸引力,这些方法对人类用来口头描述其意图。因此,将文本驱动的图像合成扩展到文本驱动的图像编辑是很自然的。编辑对于这些生成模型来说是具有挑战性的,因为编辑技术的先天属性是保留大多数原始图像,而在基于文本的模型中,即使对文本提示的小修改也通常会导致完全不同的结果。最先进的方法可以通过要求用户提供空间掩码来本地化编辑,从而忽略蒙版区域内的原始结构和内容,从而减轻这种方法。在本文中,我们追求一个直观的及时提示编辑框架,其中编辑仅由文本控制。为此,我们深入分析了一个文本条件模型,并观察到跨注意层是控制图像的空间布局与提示中每个单词之间关系的关键。通过此观察,我们提出了几种应用程序,它们仅通过编辑文本提示来监视图像综合。这包括通过替换单词,通过添加规范来替换单词编辑的本地化编辑,甚至精心控制单词在图像中反映的程度。我们介绍了各种图像和提示的结果,证明了对编辑提示的高质量综合和忠诚度。
translated by 谷歌翻译
In this paper, we present a method for converting a given scene image into a sketch using different types and multiple levels of abstraction. We distinguish between two types of abstraction. The first considers the fidelity of the sketch, varying its representation from a more precise portrayal of the input to a looser depiction. The second is defined by the visual simplicity of the sketch, moving from a detailed depiction to a sparse sketch. Using an explicit disentanglement into two abstraction axes -- and multiple levels for each one -- provides users additional control over selecting the desired sketch based on their personal goals and preferences. To form a sketch at a given level of fidelity and simplification, we train two MLP networks. The first network learns the desired placement of strokes, while the second network learns to gradually remove strokes from the sketch without harming its recognizability and semantics. Our approach is able to generate sketches of complex scenes including those with complex backgrounds (e.g., natural and urban settings) and subjects (e.g., animals and people) while depicting gradual abstractions of the input scene in terms of fidelity and simplicity.
translated by 谷歌翻译
这项研究表明,预期和实际相互作用如何影响老年人的SAR量化量化。这项研究包括两个部分:在线调查,可通过视频观看SAR和接受研究的验收研究来探索预期的交互作用,其中老年人与机器人进行了互动。这项研究的两个部分均在Gymmy的帮助下完成,这是一种机器人系统,我们的实验室开发了用于培训老年人身体和认知活动的培训。两个研究部分都表现出相似的用户响应,表明用户可以通过预期的互动来预测SAR的接受。索引术语:衰老,人类机器人互动,老年人,质量评估,社会辅助机器人,技术接受,技术恐惧症,信任,用户体验。
translated by 谷歌翻译
体育活动对于健康和福祉很重要,但只有很少的人满足世界卫生组织的体育活动标准。机器人运动教练的开发可以帮助增加训练的可及性和动力。用户的接受和信任对于成功实施这种辅助机器人至关重要。这可能会受到机器人系统和机器人性能的透明度的影响,尤其是其失败。该研究对与任务,人,机器人和相互作用(T-HRI)相关的透明度水平进行了初步研究,并进行了相应调整的机器人行为。在一部分实验中,机器人性能失败允许分析与故障有关的T-HRI水平的影响。在机器人性能中遇到失败的参与者表现出比没有经历这种失败的人的接受程度和信任水平要低。此外,T-HRI级别和参与者群体之间的接受度量存在差异,这暗示了未来研究的几个方向。
translated by 谷歌翻译
胎儿肺扩散加权MRI(DWI)数据的定量分析显示,提供了提供的定量成像生物标志物,这些生物标志物间接反映了胎儿肺的成熟。但是,采集期间的胎儿运动阻碍了对获得的DWI数据的定量分析,因此妨碍了可靠的临床利用。我们介绍了QDWI-Morph,这是一种无监督的深神经网络结构,用于运动补偿定量DWI(QDWI)分析。我们的方法将注册子网络与定量DWI模型拟合子网络融合。我们同时估计QDWI参数和运动模型,通过最大程度地降低整合注册损失和模型拟合质量损失的生物形态信息损失函数。我们证明了QDWI-MORPH的附加值:1)基线QDWI分析没有运动补偿和2)仅包含注册损失的基线深学习模型。 QDWI-morph通过对胎儿肺DWI数据的体内QDWI分析(r-squared = 0.32 vs. 0.13,0.28)实现了与胎龄的相关性。我们的QDWI-MORPH有可能对DWI数据进行运动补偿的定量分析,并为非侵入性胎儿肺成熟度评估提供临床上可行的生物标志物。我们的代码可在以下网址获得:https://github.com/technioncomputationalmrilab/qdwi-morph。
translated by 谷歌翻译
参与者反复产生音节的Diadochokinetic语音任务(DDK)通常用作评估语音运动障碍的一部分。这些研究依赖于时间密集型,主观的手动分析,并且仅提供粗略的语音图片。本文介绍了两个深度神经网络模型,这些模型会自动从未注释,未转录的语音中分割辅音和元音。两种模型都在原始波形上工作,并使用卷积层进行特征提取。第一个模型基于LSTM分类器,然后是完全连接的层,而第二个模型则添加了更多的卷积层,然后是完全连接的层。这些模型预测的这些分割用于获得语音速率和声音持续时间的度量。年轻健康个体数据集的结果表明,我们的LSTM模型的表现优于当前的最新系统,并且与受过训练的人类注释相当。此外,在对帕金森氏病数据集的看不见的老年人进行评估时,LSTM模型还与受过训练的人类注释者相当。
translated by 谷歌翻译
图像分割中使用的数据并不总是在同一网格上定义。对于医学图像,尤其如此,在这种医学图像中,分辨率,视野和方向在各个渠道和受试者之间可能会有所不同。因此,图像和标签通常被重新采样到同一网格上,作为预处理步骤。但是,重采样操作引入了部分体积效应和模糊,从而改变了有效的分辨率并减少了结构之间的对比度。在本文中,我们提出了一个SPLAT层,该层自动处理输入数据中的分辨率不匹配。该层将每个图像推向执行前向通行证的平均空间。由于SPLAT运算符是重采样运算符的伴随,因此可以将平均空间预测拉回到计算损耗函数的本机标签空间。因此,消除了使用插值进行明确分辨率调整的需求。我们在两个公开可用的数据集上显示,具有模拟和真实的多模式磁共振图像,该模型与重新采样相比作为预处理步骤而改善了分割结果。
translated by 谷歌翻译
对胎儿肺扩散加权MRI(DWI)的数据分析(IVIM)分析显示了提供定量成像的生物标志物的潜力,这些标志物是间接地反映出非侵入性胎儿肺肺部成熟评估的扩散和伪扩散的。然而,由于IVIM分析所需的大量不同的“ B值”图像,较长的获取时间,排除了临床可行性。我们介绍了Super-IVIM-DC一种深神经网络(DNN)方法,该方法将监督损失与数据矛盾项相结合,以实现IVIM分析以有限数量的B值获得的DWI数据。我们通过数值模拟,健康的志愿者研究和IVIM分析了胎儿DWI数据的胎儿肺成熟,从而证明了超级IVIM-DC在经典和最近的DNN方法中的附加价值。 %添加结果我们的数值模拟和健康的志愿者研究表明,与以前的基于DNN的方法相比,来自有限DWI数据的IVIM模型参数的超级IVIM-DC估计值较低。此外,与经典和基于DNN的方法相比,胎儿肺有限的DWI数据的伪扩散分数参数的超级IVIM-DC估计与胎龄相关(0.242 vs. -0.079和0.239)。 Super-IVIM-DC有可能减少与IVIM数据分析DWI数据相关的长期获取时间,并为非侵入性胎儿肺成熟度评估提供临床上可行的生物标志物。
translated by 谷歌翻译
声带煎炸或吱吱作响的声音是指以不规则的发光开口和低音为特征的语音质量。它以各种语言发生,并且在美国英语中很普遍,不仅可以标记词组结局,还用于社会语言因素和影响。由于其不规则的周期性,吱吱作响的声音挑战自动语音处理和识别系统,尤其是对于经常使用吱吱作响的语言。本文提出了一个深度学习模型,以检测流利的语音中的吱吱作响的声音。该模型由编码器和经过训练的分类器组成。编码器采用原始波形,并使用卷积神经网络学习表示。分类器被实现为多头完全连接的网络,该网络训练有素,可检测吱吱作响的声音,发声和音调,最后两个用于完善吱吱作响的预测。该模型经过对美国英语说话者的言语的培训和测试,并由训练有素的语音家注释。我们使用两个编码器评估了系统的性能:一个是为任务量身定制的,另一个是基于最新的无监督表示。结果表明,与看不见的数据相比,我们表现最佳的系统的回忆和F1得分有所改善。
translated by 谷歌翻译